Conversation
LLAISYS 训练营结项报告1. 项目概述本次训练营我主要完成了 我最终完成的内容包括:
2. 实验环境与复现方式2.1 基础构建流程每次修改 C++ / CUDA 后端后,我使用下面的流程重新构建: xmake f --nv-gpu=y -cv
xmake
xmake install
pip install ./python说明:Python 测试默认导入已安装的 2.2 我实际使用的验证命令分布式验证前,我的 shell 环境中已包含以下配置: source /data/shared/miniconda3/etc/profile.d/conda.sh
conda activate szt
export PATH=$PATH:/usr/local/cuda/bin/:/usr/local/mpi/bin/
export NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=0
export NCCL_IB_RETRY_CNT=7
export NCCL_IB_TIMEOUT=23
export NCCL_LAUNCH_MODE=GROUP其中 单卡 NVIDIA Runtime 验证: python test/test_runtime.py --device nvidia单卡 NVIDIA 推理验证: python test/test_infer.py \
--model /home/st3to/DeepSeek-R1-Distill-Qwen-1.5B \
--test \
--device nvidia8 卡通信验证: python test/test_dist.py --device nvidia --world-size 88 卡分布式推理验证: python test/test_infer_dist.py \
--model /home/st3to/DeepSeek-R1-Distill-Qwen-1.5B \
--device nvidia \
--test \
--max_steps 128 \
--world-size 83. Project #2:Integrate CUDA into LLAISYS3.1 项目目标
3.2 实现路径第一层:构建系统这一层我主要完成了:
初期遇到过 第二层:NVIDIA Runtime我对照
同时我抽出了统一的 CUDA 辅助层,主要负责:
第三层:CUDA 算子本次我完成了以下 NVIDIA 算子:
实现策略如下:
第四层:模型推理集成在模型侧,我完成了
3.3 设计方案与思考1. 为什么要先打通构建系统和 Runtime因为 2. 为什么
|
No description provided.